智能论文笔记

Celeritas: Fast Optimizer for Large Dataflow Graphs

Hengwei Xu , Yong Liao , Haiyong Xie , Pengyuan Zhou

分类：人工智能

2022-07-30

快速扩大的神经网络模型在单个设备上运行越来越具有挑战性。因此，在多个设备上的模型并行性对于确保训练大型模型的效率至关重要。最近的建议在长时间处理时间或性能差。因此，我们提出了Celeritas，这是一个快速的框架，用于优化大型型号的设备放置。Celeritas在标准评估中采用简单但有效的模型并行化策略，并通过一系列调度算法生成位置策略。我们进行实验以在许多大型模型上部署和评估Celeritas。结果表明，与大多数高级方法相比，Celeritas不仅将放置策略生成时间减少26.4 \％，而且还将模型运行时间提高了34.2 \％。

translated by 谷歌翻译

Federated Split GANs

Pranvera Kortoçi , Yilei Liang , Pengyuan Zhou , Lik-Hang Lee , Abbas Mehrabi , Pan Hui , Sasu Tarkoma , Jon Crowcroft

分类：机器学习 | 人工智能

2022-07-04

移动设备以及它们生成的大量数据是基于机器学习（ML）的应用程序的关键推动者。传统的ML技术已转向新的范式，例如联合（FL）和分裂学习（SL），以改善对用户数据隐私的保护。但是，这些范式通常依靠位于边缘或云中的服务器来训练ML模型的计算重量部分，以避免在客户端设备上排出有限的资源，从而将设备数据暴露于此类第三方。这项工作提出了一种替代方法，可以在用户设备本身中培训计算重量的ML模型，该模型位于相应的设备数据所在的地方。具体来说，我们专注于gan（生成对抗网络），并利用其固有的隐私保护属性。我们在用户的设备上使用原始数据训练GAN的判别部分，而生成模型进行了远程训练（例如服务器），无需访问传感器真实数据。此外，我们的方法可确保训练的计算负载判别模型在用户的设备中共享与SL的计算功能。我们在实际资源约束设备中实施了计算重的GAN模型的建议协作培训计划。结果表明，我们的系统可以保留数据隐私，保持短暂的训练时间，并在不受约束的设备（例如云）中产生相同的模型培训准确性。我们的代码可以在https://github.com/yukarisonz/fsl-gan上找到

translated by 谷歌翻译

HideNseek: Federated Lottery Ticket via Server-side Pruning and Sign Supermask

Anish K. Vallapuram , Pengyuan Zhou , Young D. Kwon , Lik Hang Lee , Hengwei Xu , Pan Hui

分类：机器学习

2022-06-09

联合学习仅通过将本地模型更新传输到中央服务器来减轻分布式学习的隐私风险。但是，它面临着挑战，包括客户数据集的统计异质性以及客户设备的资源限制，这严重影响了培训性能和用户体验。先前的工作通过将个性化与模型压缩方案结合起来解决了这些挑战，包括量化和修剪。但是，修剪是数据依赖性的，因此必须在客户端进行，这需要相当大的计算成本。此外，修剪通常会在\ {0，1 \} $中训练二进制超级卸义$ \，这显着限制了模型容量，但没有计算益处。因此，培训需要高计算成本，并且需要很长时间才能收敛，而模型性能则没有回报。在这项工作中，我们提出了Hidenseek，该HIDENSEK在初始化时采用单次数据不合稳定的修剪来获得基于权重的突触显着性的子网。然后，每个客户端优化了\ { - 1，+1 \} $乘以未经修复的权重的标志Super-Mask $ \，以允许更快的收敛速度与最先进的压缩率相同。三个数据集的经验结果表明，与最先进的hidenseek相比，Hidenseek将推论精度提高了40.6 \％，同时将沟通成本和培训时间分别降低了39.7 \％和46.8％。

translated by 谷歌翻译

HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object Pose Dataset with Household Objects in Realistic Scenarios

HyunJun Jung , Shun-Cheng Wu , Patrick Ruhkamp , Hannah Schieber , Pengyuan Wang , Giulia Rizzoli , Hongcheng Zhao , Sven Damian Meier , Daniel Roth , Nassir Navab

分类：计算机视觉

2022-12-20

Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.

translated by 谷歌翻译

Balanced Semi-Supervised Generative Adversarial Network for Damage Assessment from Low-Data Imbalanced-Class Regime

Yuqing Gao , Pengyuan Zhai , Khalid M. Mosalam

分类：机器学习

2022-11-29

In recent years, applying deep learning (DL) to assess structural damages has gained growing popularity in vision-based structural health monitoring (SHM). However, both data deficiency and class-imbalance hinder the wide adoption of DL in practical applications of SHM. Common mitigation strategies include transfer learning, over-sampling, and under-sampling, yet these ad-hoc methods only provide limited performance boost that varies from one case to another. In this work, we introduce one variant of the Generative Adversarial Network (GAN), named the balanced semi-supervised GAN (BSS-GAN). It adopts the semi-supervised learning concept and applies balanced-batch sampling in training to resolve low-data and imbalanced-class problems. A series of computer experiments on concrete cracking and spalling classification were conducted under the low-data imbalanced-class regime with limited computing power. The results show that the BSS-GAN is able to achieve better damage detection in terms of recall and $F_\beta$ score than other conventional methods, indicating its state-of-the-art performance.

translated by 谷歌翻译

TRUST: An Accurate and End-to-End Table structure Recognizer Using Splitting-based Transformers

Zengyuan Guo , Yuechen Yu , Pengyuan Lv , Chengquan Zhang , Haojie Li , Zhihui Wang , Kun Yao , Jingtuo Liu , Jingdong Wang

分类：计算机视觉

2022-08-31

表结构识别是文档图像分析域的关键部分。它的困难在于需要同时解析每个单元的物理坐标和逻辑指标。但是，现有的方法很难实现这两个目标，尤其是当表分裂线被模糊或倾斜时。在本文中，我们提出了一种基于端到端变压器的表面结构识别方法，称为信任。变压器由于其全局计算，完美的内存和并行计算而适合表结构识别。通过引入基于新型变压器基于查询的新型分裂模块和基于顶点的合并模块，表结构识别问题被脱钩到两个关节优化子任务中：多面向的表行/列分拆分和表格格里合并。基于查询的拆分模块通过变压器网络从长期依赖项中学习了强烈的上下文信息，准确预测了多个面向的表行/列分离器，并相应地获得了表的基本网格。基于顶点的合并模块能够在相邻的基本网格之间汇总局部上下文信息，从而能够合并准确属于同一跨越单元的基本束。我们对包括PubTabnet和Connthtable在内的几个流行基准进行实验，我们的方法实现了新的最新结果。特别是，信任在PubTabnet上以10 fps的速度运行，超过了先前的方法。

translated by 谷歌翻译

HTML版本

The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines

Gaofeng Cheng , Yifan Chen , Runyan Yang , Qingxuan Li , Zehui Yang , Lingxuan Ye , Pengyuan Zhang , Qingqing Zhang , Lei Xie , Yanmin Qian

分类：自然语言处理

2022-08-17

对话场景是语音处理技术最重要，最具挑战性的场景之一，因为对话中的人们以随意的方式相互反应。在对话中检测每个人的语音活动对于下游任务，例如自然语言处理，机器翻译等。人们指的是“何时说话”作为说话者诊断（SD）的检测技术。传统上，诊断错误率（DER）长期以来一直用作SD系统的标准评估度量。但是，der没有给简短的对话短语提供足够的重视，这在语义层面上很重要。此外，在语音社区中，仍然无法使用精心准确的手动测试数据集，适合评估对话性SD技术。在本文中，我们设计和描述了对话式短语扬声器诊断（CSSD）任务，该任务包括培训和测试数据集，评估指标和基线。在数据集方面，尽管先前开源的180小时对话魔术Data-RAMC数据集，但我们还准备了一个20小时的对话演讲测试数据集，并精心验证了CSSD任务的时间戳注释。在度量方面，我们设计了新的对话der（CDER）评估度量，该评估度量计算出语音级别的SD准确性。在基线方面，我们采用了一种常用的方法：变异贝叶斯HMM X-vector系统，作为CSSD任务的基线。我们的评估指标可在https://github.com/speechclub/cder_metric上公开获得。

translated by 谷歌翻译

Decoupling Recognition from Detection: Single Shot Self-Reliant Scene Text Spotter

Jingjing Wu , Pengyuan Lyu , Guangming Lu , Chengquan Zhang , Kun Yao , Wenjie Pei

分类：计算机视觉

2022-07-15

典型的文本检测器遵循两阶段的发现策略：首先检测文本实例的精确边界，然后在定期的文本区域内执行文本识别。尽管这种策略取得了实质性进展，但有两个基本的局限性。 1）文本识别的性能在很大程度上取决于文本检测的精度，从而导致从检测到识别的潜在误差传播。 2）桥接检测和识别的ROI种植会带来背景的噪音，并在合并或从特征地图中插值时导致信息丢失。在这项工作中，我们提出了单个镜头自力更生的场景文本sottter（SRSTS），该场景通过将识别解除识别来规避这些限制。具体而言，我们并行进行文本检测和识别，并通过共享的积极锚点架起它们。因此，即使确切的文本边界要检测到具有挑战性，我们的方法也能够正确识别文本实例。此外，我们的方法可大大降低文本检测的注释成本。在常规基准和任意形状的基准上进行了广泛的实验表明，就准确性和效率而言，我们的SRST与以前的最先进的观察者相比有利。

translated by 谷歌翻译

Boosting Cross-Domain Speech Recognition with Self-Supervision

Han Zhu , Gaofeng Cheng , Jindong Wang , Wenxin Hou , Pengyuan Zhang , Yonghong Yan

分类：自然语言处理

2022-06-20

由于训练和测试分布之间的不匹配，自动语音识别（ASR）的跨域性能可能会受到严重阻碍。由于目标域通常缺乏标记的数据，并且在声学和语言水平上存在域移位，因此对ASR进行无监督的域适应性（UDA）是一项挑战。先前的工作表明，通过利用未标记的数据的自我检查，自我监督的学习（SSL）或伪标记（PL）可以有效地进行UDA。但是，这些自我介绍也面临不匹配的域分布中的性能退化，而以前的工作未能解决。这项工作提出了一个系统的UDA框架，可以在预训练和微调范式中充分利用具有自学贴标签的未标记数据。一方面，我们应用持续的预训练和数据重播技术来减轻SSL预训练模型的域不匹配。另一方面，我们提出了一种基于PL技术的域自适应微调方法，并具有三种独特的修改：首先，我们设计了一种双分支PL方法，以降低对错误的伪标签的敏感性；其次，我们设计了一种不确定性感知的置信度过滤策略，以提高伪标签的正确性。第三，我们引入了两步PL方法，以结合目标域语言知识，从而产生更准确的目标域伪标记。各种跨域场景的实验结果表明，所提出的方法可以有效地提高跨域的性能，并显着超过以前的方法。

translated by 谷歌翻译

Decoupled Federated Learning for ASR with Non-IID Data

Han Zhu , Jindong Wang , Gaofeng Cheng , Pengyuan Zhang , Yonghong Yan

分类：自然语言处理

2022-06-18

具有联合学习（FL）的自动语音识别（ASR）使得在不损害隐私的情况下利用来自多个客户的数据。基于FL的ASR质量可以通过识别性能，沟通和计算成本来衡量。当不同客户之间的数据不是独立且分布相同的（非IID）时，性能可能会大大降低。在这项工作中，我们使用个性化的FL解决了基于FL的ASR中的非IID问题，该问题为每个客户学习个性化模型。具体而言，我们提出了两种类型的ASR个性化FL方法。首先，我们将基于个性化的FL适应ASR，该层在本地保留一些层以学习个性化模型。其次，为了降低沟通和计算成本，我们提出了脱钩的联合学习（Decouplefl）。一方面，DeCoupleFL将计算负担移至服务器，从而减少了客户端的计算。另一方面，Decouplefl传达安全的高级功能而不是模型参数，从而在模型大时降低通信成本。实验表明，与FedAvg相比，两种提出的基于FL的ASR方法可以将WER降低2.3％-3.4％。其中，与FedAvg相比，Decouplefl仅具有11.4％的通信和75％的计算成本，这也明显少于基于个性化的FL。

translated by 谷歌翻译